iT邦幫忙

2023 iThome 鐵人賽

DAY 25
1
IT管理

從 IT 的視角觀看公司內部的系統管理及設計系列 第 25

Day 25 : 什麼是資料清洗 (Data Cleaning)?四個不可不知的清洗重點

  • 分享至 

  • xImage
  •  

什麼是資料清洗 (Data Cleaning)?四個不可不知的清洗重點

大家安安,今天要和大家聊聊什麼是資料清洗。

https://ithelp.ithome.com.tw/upload/images/20231010/20162545YessyifhLp.png
(Powered By Microsoft Designer)

資料清洗非常重要,是資料分析前一定要做的事情,有了它,才不會發生 Garbage in, garbage out 的悲劇。

什麼是資料清洗?

在進行資料分析以及使用收集的資料之前,我們必須要確定資料是正確的。
也就是說,要對資料進行前處理,而資料前處理的第一步就是「資料清理」,需要先將資料中的有問題的資料處理掉,把資料中有缺失的值補充完整或直接刪除資料、識別或刪除極端值並解決資料的不一致性。

而要如何做資料清理?這裡有四點資料清理的重點,分享給你

1. 確認資料的品質 : 找出有問題的資料

品質是指資料是否符合我們的需求和期望,例如是否有缺失值、異常值、格式不一致等問題。
在 ETL 的程式中,我們也需要過濾出有問題的資料,避免這些髒資料被送到用來分析的資料倉儲中。

2. 處理缺失值與異常值 : 對有問題的資料做處理

缺失值是指資料中沒有填寫或記錄的部分,它可能會影響我們的分析結果和模型效能。
通常我們都可以找到缺失的部分,但如果資料無法補齊,那我就會選擇把這筆資料標記下來人工處理,例如沒有填入郵遞區號的地址、沒有加上國碼的電話。

異常值是指資料中與其他觀測明顯不同或不合理的部分。
假設要分析一家商店的銷售數據,你發現某一天的銷售額遠高於其他日子,這可能是一個異常值,可能是由於特殊活動或錯誤記錄導致的。
這種特殊的資料會需要特殊的處理,如果是錯誤的紀錄當然要刪除 (大部分是測試資料忘記刪掉造成)

3. 處理不一致性 : 讓內容都長的一樣

不一致性是指資料中存在著不同格式、單位、編碼或命名規則等問題。
尤其在跨國系統中超常發生,因為有著不同的語言、單位和命名規則。
為了做分析,最好是轉換成同一個單位與命名規則,包含了標點符號。

4. 驗證資料的正確性 : 把不合理的資料挑出來

正確性是指資料是否反映了真實的情況和現象,例如是否有邏輯錯誤、違反常識等問題。
例如有個使用者的生日是 2123 年 (未來的日期,代表還沒出生)。

結論

資料清洗非常重要,是資料前處理的第一步,有四個清洗的重點,包含 確認資料的品質 : 找出有問題的資料處理缺失值與異常值 : 對有問題的資料做處理處理不一致性 : 讓內容都長的一樣驗證資料的正確性 : 把不合理的資料挑出來


Reference :

AWS - What Is Data Cleansing
ALPHAcamp - Data Cleaning:資料清洗的方法與重要性
DATA + DESIGN / 資料 + 設計 - 第八章 : Data Cleaning
Wikipedia - Data Cleansing


上一篇
Day 24 : 如何建立一個好的 ETL 流程?
下一篇
Day 26 : 好用的密碼管理工具 - KeyPass
系列文
從 IT 的視角觀看公司內部的系統管理及設計30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言